Évaluation des IA génératives : Hugging Face lance LightEval

Hugging Face, qui s'est rendue indispensable dans le monde de l'IA par sa plateforme de partage de modèles, a publié ce lundi 9 septembre LightEval, un outil qui permet d'évaluer les IA génératives, sous licence libre (MIT).

Le co-fondateur de la startup, Clement Delangue, affirme sur X que l'évaluation est l'une des étapes les plus importantes de l'IA : « nous devons non seulement améliorer l'analyse comparative générale, mais nous devons également permettre à chaque organisation de mener sa propre évaluation, en fonction de ses tâches, objectifs et contraintes spécifiques, de manière décentralisée ».

Clémentine Fourrier, qui fait partie de l'équipe d'évaluations des IA chez Hugging Face, explique que leur outil est « une petite suite d'évaluation LLM, pour :

  • itérer sur de nouvelles tâches facilement (variantes d'invite/modèles, tâches personnalisées...)
  • évaluer les modèles compatibles HF/nanotron le plus rapidement possible avec DP/PP [Data Parallelism / Pipeline Parallelism] sur les GPU »

Venture Beat explique qu'il n'y a pas besoin d'être expert pour évaluer un modèle avec LightEval, qu'il est possible d'évaluer les modèles sur des benchmarks connus ou sur une tâche de son choix et qu'il peut être utilisé sur un ordinateur portable comme sur un cluster de GPU.

Nos confrères louent néanmoins sa capacité à faire des évaluations avancées, en utilisant différents poids, ou, par exemple, le « Pipeline Parallelism » : « par exemple, une entreprise déployant un modèle d'IA pour la détection des fraudes pourrait privilégier la précision plutôt que le rappel afin de minimiser les faux positifs », ce qui est possible avec LightEval.

Commentaires (1)


« par exemple, une entreprise déployant un modèle d'IA pour la détection des fraudes pourrait privilégier la précision plutôt que le rappel afin de minimiser les faux positifs »

Pour ceux qui comme moi ne savent pas ce qu'est le "rappel/recall, lire ceci. On y parle aussi de précision.
Fermer